home *** CD-ROM | disk | FTP | other *** search
/ Sigcat Software Showcase 1993 / Sigcat 93 Software Showcase dataDisc.ISO / research / library / docs / scchp5.asc < prev    next >
Encoding:
Text File  |  1993-02-08  |  25.1 KB  |  722 lines

  1.  
  2.  
  3.                      CHAPTER FIVE
  4.  
  5.                CD-ROM PRODUCTION ISSUES
  6.  
  7.  
  8.  
  9.                CD-ROM DATA COMPRESSION
  10.  
  11.                    Dr Nicholas Beser
  12.               Applied Physics Laboratory
  13.                Johns Hopkins University
  14.  
  15.  
  16.  
  17.  
  18. This paper was done with overhead visuals listed below.
  19.  
  20. %g BES01.pcx;
  21. %g BES02.pcx;
  22. %g BES03.pcx;
  23. %g BES04.pcx;
  24. %g BES05.pcx;
  25. %g BES06.pcx;
  26. %g BES07.pcx;
  27. %g BES08.pcx;
  28. %g BES09.pcx;
  29. %g BES10.pcx;
  30. %g BES11.pcx;
  31. %g BES12.pcx;
  32. %g BES13.pcx;
  33. %g BES14.pcx;
  34. %g BES15.pcx;
  35. %g BES16.pcx;
  36. %g BES17.pcx;
  37. %g BES18.pcx;
  38. %g BES19.pcx;
  39. %g BES20.pcx;
  40. %g BES21.pcx;
  41. %g BES22.pcx;
  42. %g BES23.pcx;
  43.  
  44.  
  45.  
  46.  
  47. ISO 9660 STANDARDS: A LAYMAN'S INTERPRETATION
  48.  
  49.                   Dr Roger Hutchison
  50.                 President, CD-ROM Inc.
  51.  
  52.  
  53. ISO 9660 is the International Organization for
  54. Standardization (ISO) "information processing -- volume
  55. and file structure of CD-ROM for information exchange."
  56. The first edition was published on April 4, 1988. The
  57. reference number for people wishing to buy the document
  58. is ISO 9660: 1988 (E). It is available for $50.00 from:
  59.  
  60.                American National Standards Institutes
  61.                11 West 42nd Street
  62.                New York NY 10036
  63.  
  64. This document, which is only 29 pages long, describes the
  65. volume and file structure for CD-ROM discs. The
  66. International Standard specifies:
  67.  
  68.          the attributes of the volume and the
  69.           descriptors placed on it
  70.  
  71.          the relationship among volumes of a
  72.           volume set
  73.  
  74.          the placement of the files
  75.  
  76.          the attributes of the files; record
  77.           structures intended for use in the
  78.           input or output data streams of an
  79.           application program when such data
  80.           streams are required to be organized
  81.           as sets of records
  82.  
  83.          three nested levels of medium
  84.           interchange
  85.  
  86.          two nested levels of implementation
  87.  
  88.          requirements for the processes which
  89.           are provided within information
  90.           processing systems, to enable
  91.           information to be interchanged
  92.           between different systems, utilizing
  93.           recorded CD-ROM as the medium of
  94.           interchange. For this purpose it
  95.           specifies the functions to be
  96.           provided within systems which are
  97.           intended to originate or receive CD-
  98.           ROM which conform to the
  99.           international standard
  100.  
  101.      Sections two through five of the ISO document relate
  102. to conformance issues and definitions which define the
  103. conformance levels. Section two, item six lays out the
  104. requirements for the medium in terms of the volume
  105. structure. Here is where the physical addresses, the
  106. logical sectors and the volume space is described and
  107. defined to comply with international standards.
  108.  
  109.      The Physical Address: The physical address is
  110.      a unique address located on the disc. It is
  111.      identifiable by a unique physical address as
  112.      specified in the relevant standard for
  113.      recording.
  114.  
  115.      The Logical Sector: The logical sectors on a
  116.      CD-ROM disc have 2,048 bytes of information.
  117.      There are eight bits in one byte, so each
  118.      sector has eight times 2,048 or 16,384 bits of
  119.      information. Here is one key element of the
  120.      uniqueness of CD-ROM and the value for massive
  121.      databases. Each logical sector has a unique
  122.      and identifiable address as represented by a
  123.      unique number.
  124.  
  125.      The Volume Space: The information on a volume
  126.      is recorded in a set of all logical sectors.
  127.      This is referred to as the Volume Space of the
  128.      disc.
  129.  
  130.      What all this means in layman's terms is the
  131. following. Imagine a long highway system, say, 3.5 miles
  132. long. Now identify each one foot of the highway as having
  133. a unique address. In other words, say "mile one, foot
  134. 1,253" is an address. You can navigate to this unique
  135. spot depending on how fast your car runs in a matter of
  136. minutes. The address of the "mile-foot" map could be
  137. 1:1253 or some other arbitrary assignment. The important
  138. thing here is that the address is identifiable, unique
  139. and findable in your address system. Another important
  140. thing is that you can get there from here if you know the
  141. address. The faster your car is, the faster you can
  142. "drive" to that address.
  143.      With CD-ROM, the address system is much the same
  144. but, of course, we are dealing with microscopic units of
  145. measurement found with a laser device moving in terms of
  146. its access speed. We can navigate in milliseconds on the
  147. surface of the CD-ROM disc because of this unique mapping
  148. system. Also, the "road" on a CD-ROM disc is a large
  149. concentric spiral starting from the inside of the disc
  150. and moving outwards. The spiral is roughly 3.5 miles
  151. long, but the laser head can jump to almost any spot on
  152. the disc by moving straight across the spiral until it
  153. finds the track where it is supposed to be. It then slows
  154. down and finds the sector and reads the data.
  155.      The ISO 9660 standard is the road map for us to
  156. follow as we interchange data amongst diverse nations
  157. both geographically and politically. It crosses language
  158. barriers in all countries and is the single most reason
  159. why CD-ROM, as a technology, can be exchanged
  160. universally. A CD-ROM disc made in the USA can be read by
  161. people in France, Italy and Botswana. The same is not
  162. true for a VCR tape, a television camera or a betamax
  163. tape.
  164.      The remainder of the ISO document simply defines
  165. more technical ways to navigate on the surface of the
  166. disc. Really, that is all there is to it!
  167.  
  168.  
  169. REFERENCE
  170.  
  171. ISO 9660: 1988(E) Information Processing - Volume and
  172. File Structure of CD-ROM for Information Interchange.
  173.  
  174.  
  175.        A CD-ROM MAINTENANCE INFORMATION SYSTEM
  176.            FOR THE GENERAL AVIATION INDUSTRY
  177.  
  178.                    Michael Sandifer
  179.              Aircraft Technical Publishers
  180.                       Brisbane CA
  181.  
  182.  
  183. This paper was done with overhead visuals listed below.
  184.  
  185.  
  186. %g SAN02.pcx;
  187. %g SAN03.pcx;
  188. %g SAN04.pcx;
  189. %g SAN05.pcx;
  190. %g SAN06.pcx;
  191. %g SAN07.pcx;
  192. %g SAN08.pcx;
  193. %g SAN09.pcx;
  194. %g SAN10.pcx;
  195. %g SAN11.pcx;
  196. %g SAN12.pcx;
  197. %g SAN13.pcx;
  198. %g SAN14.pcx;
  199. %g SAN15.pcx;
  200. %g SAN16.pcx;
  201. %g SAN17.pcx;
  202. %g SAN18.pcx;
  203. %g SAN19.pcx;
  204.  
  205.  
  206. DATA CAPTURE: THE INS AND OUTS, DO'S AND DON'TS
  207.  
  208.                    William Thornburg
  209.                  Director of Marketing
  210.                Reference Technology Inc.
  211.  
  212.  
  213. Mark Twain was always hearing from people who claimed to
  214. be his double and he got tired of writing to these people
  215. and explaining to them they couldn't possibly be his
  216. double. So he had a letter run off, had a bunch of copies
  217. made and sent a form letter in response to these claims.
  218. I will read you the letter:
  219.  
  220.                            
  221.      My dear sir, Thank you very much for your
  222.      letter and photograph. In my opinion you are
  223.      more like me than any of my numerous doubles.
  224.      I may even say you resemble me even more
  225.      closely than I do myself. In fact I intend to
  226.      use your picture to shave by. Yours
  227.      thankfully, S. Clemens
  228.  
  229. Data capture is like that - you would like to end up with
  230. a picture that you can shave by. In fact I think if you
  231. did shave by it you would end up with a few nicks. The
  232. real question in data capture is how many nicks are you
  233. willing to live with. Judy Zidar (National Agriculture
  234. Library) mentioned that data capture is the most
  235. expensive part of a CD-ROM project. I'll second that. The
  236. logical formatting part of CD-ROM mastering is usually
  237. what people think of when they think of making a CD-ROM.
  238. That's the piece that costs a couple of thousand dollars
  239. and takes a few days time. You can measure it in hours of
  240. time or hours of effort. The next step is the indexing
  241. step and you usually measure that in tens of hours.
  242. Another order of magnitude more expensive and time
  243. consuming. The next step - data conversion - is usually
  244. measured in hundreds of hours. Once again another order
  245. of magnitude more expensive and time consuming. If you
  246. happen to be unlucky enough to do data capture you are
  247. going to spend significant effort in terms of time and
  248. money capturing the data. 
  249.  
  250.  
  251. PRICE QUOTES
  252.  
  253. Price quotes are one way to evaluate capture vendors.
  254. When you think of page scanning it is usually quite
  255. straightforward. It's quoted on a price per page. Prices
  256. per page using a sub-contractor usually range anywhere
  257. from fifteen cents a page to a dollar a page depending
  258. mostly on quality. Its one of the significant cost
  259. factors. When we talk about quality we are really talking
  260. about the amount of skew on the page, how well aligned
  261. the type is on the page and the readability of the text
  262. or the pictures on the page. One thing to be aware of in
  263. price quotes is media deposit fees. There is usually a
  264. media deposit fee and it's sometimes refundable and
  265. sometimes not. As an example, we recently completed a
  266. relatively large CD-ROM project which included
  267. significant data capture. We selected a capture vendor
  268. and then discovered that they could only supply us data
  269. on 1600 BPI tapes. The project actually ended up
  270. entailing thousands of tapes, which had they not been
  271. returnable, would have been thousands of additional
  272. dollars in media.
  273.  
  274.  
  275. TEXT CAPTURE
  276.  
  277. Capturing the text off the page is the most complex part
  278. of data capture. As a consumer of data capture services
  279. we've found that in keystroking versus OCR, keystroking
  280. tends to produce higher accuracy and is cheaper if source
  281. documents can be sent offshore. When I talk about sending
  282. keystroking offshore it usually means India, the
  283. Philippines, China, and sometimes Mexico. What you are
  284. really talking about is whether your data is secure and
  285. can be sent offshore. If it can't be sent offshore the
  286. costs are roughly the same between keystroking and OCR.
  287. The costs are usually measured in thousands of
  288. keystrokes. The rates are usually eighty cents to three
  289. dollars per thousand keystrokes. The difference in cost
  290. factors are quality, volume and very often turn-around -
  291. how soon you need the data back.
  292.      One of the critical parameters in your cost is how
  293. many characters you have on a page. It's very easy to
  294. count the characters on a single page but until you do
  295. the keystroking, unless you have a lot of patience, you
  296. don't know how many total characters you have. That makes
  297. budgeting very difficult. Normally we try to pick out
  298. several random pages, count the characters, multiply by
  299. the number of pages and hope for the best. A lot of
  300. capture vendors use file size as a measure of the number
  301. of keystrokes they have captured. The thing to be aware
  302. of is that if your data comes back in some word
  303. processing format such as WordPerfect, a lot of
  304. additional coding gets inserted into the WordPerfect
  305. file. If using file size to count keystrokes then you
  306. will be charged for these additional characters. Again
  307. this can inflate your costs.
  308.      Tabs are a very interesting part of keystroking
  309. because tabs can have a profound impact on tables. This
  310. is a sample table that has about 370 characters if you
  311. ignore the spaces and tabs. If you use spaces to align
  312. the columns you have 633 spaces. If you use tabs you are
  313. going to use 24 tabs. We're talking about the difference
  314. between about 1000 keystrokes and 400 keystrokes. So we
  315. have about a 250% higher cost if you use spaces instead
  316. of tabs. Make sure directions to your keystrokers are
  317. very explicit regarding tables. 
  318.  
  319.  
  320. QUALITY
  321.  
  322. You would like to have first generation documents. Second
  323. and third generation documents - photocopies - tend to
  324. lose resolution. You end up with poor quality scanned
  325. images and less readable characters. Paper stock is
  326. significant particularly when you are scanning because
  327. you get bleed-through from the print on the backside of
  328. the page. If you have very thin newsprint you can get
  329. bleed-through. If your source documents are microfiche or
  330. microfilm the normal route is that they are printed to
  331. paper and then the paper is captured electronically. A
  332. microfilm print usually is relatively low quality. The
  333. two areas that can get you into trouble with OCR are non-
  334. proportionally-spaced text and typographical effects such
  335. as using the vertical bars to outline tables. Those tend
  336. to fool a lot of the current OCR software.
  337.      Graphics - paper stock and copy generation comes
  338. into play. Size comes into play if you have larger or
  339. smaller documents than 8.5 x 11 inches. These tend to
  340. cost more. With graphics capture most vendors like to
  341. take a stack of paper, put it in a page feeder and run it
  342. through a scanner. So if you have over-sized or under-
  343. sized documents they are going to influence your costs.
  344. If you have fine lines they can get lost in scanning. If
  345. you have half-tones or photographs there are various
  346. techniques that can be applied at scanning time to
  347. enhance the actual scan of them but these techniques will
  348. also influence costs.
  349.      Think about what you want to do with a scanned
  350. image. You normally want to present it to the user at a
  351. workstation and eventually they want to print it. Most of
  352. the desktop laser printers today don't print within about
  353. 1/8" all around the border of a page. If you have source
  354. documents that are printed all the way up to the edge of
  355. the page you are likely to lose the border when they are
  356. printed on the laser printer. A fairly common trick is to
  357. photo-reduce the page before it goes through the scanner.
  358. Photo reduce it to 98% its original size and then you
  359. don't worry about the border around the edges. Again,
  360. these steps tend to drive your costs up.
  361.      The other issue is skew. There are two things that
  362. cause skew. Often you are capturing from a printed book.
  363. The binding gets split off the book and then that the
  364. ream of paper gets stuck into the sheet feeder of a page
  365. scanner. That cut edge is not going to be very even. If
  366. that edge happens to be the alignment edge you end up
  367. with things skewed. The other thing that causes skew is
  368. original documents that are printed skewed on the page.
  369. This most often happens if working from photocopies. It
  370. is very difficult for the machine to recognize skew. The
  371. only way we've found to do it is to have an operator look
  372. at those images.
  373.      In addition there are the hidden costs, the product
  374. management costs occur in three areas, quality, content
  375. and validation. 
  376.  
  377.  
  378. QUALITY AND CONTENT VALIDATION
  379.  
  380. People pay attention to things that are measured. Capture
  381. vendors pay attention to what you measure. Therefore you
  382. want to measure the things that are important in your
  383. capture project. The things that are important are
  384. quality, quality, quality and then content. 
  385. The real issue with validation is that you would like to
  386. make clear to the vendor how you are going to measure
  387. their quality and content. That way if there's any
  388. disagreement whether the relative quality level was met
  389. you've already established how you were going to measure
  390. it and whether it is acceptable or not. Some of the
  391. techniques for validating quality and content are
  392. programmatic validation and spot checking. We use a suite
  393. of these things. We divide a very large capture project
  394. into batches. Then we apply some statistical sampling
  395. techniques to the batches. If the samples pass then we
  396. make the assumption based on the sampling algorithms that
  397. the whole batch is ok. And we establish these techniques
  398. with the vendor. The thing to be aware of in a data
  399. capture project finding errors is the hard part. Once you
  400. have found them fixing them is very inexpensive. So its
  401. unacceptable to say to the vendor "I found an error in
  402. this word, and I want you to fix it." The vendor will say
  403. "I'll fix the word and we'll be done with it." What you
  404. really want to say is, "I found an error in this batch
  405. and I want you to redo the batch." 
  406.  
  407.  
  408. BUDGETING DATA CAPTURE PROJECT
  409.  
  410. Some of us have the luxury of a variable budget. Most of
  411. us don't. Living within a fixed cost budget can be fairly
  412. difficult since many cost components of a capture project
  413. are hard to predict. One recommendation we have is to
  414. think about budgeting for only part of the data. You have
  415. a fixed budget that applies to as much data as you can
  416. get through the process. You have a history of data and
  417. you would like to capture some number of years. You start
  418. working backwards until your data capture dollars run out
  419. and that's where you cut and make your CD-ROM disk. A
  420. fairly effective technique where you don't have to budget
  421. as closely for unforeseen costs. And the more current
  422. data is usually the more valuable to users. The question,
  423. of course, is whether you can live with only part of the
  424. data. 
  425.  
  426.  
  427. PROBLEMS IN SPECIFICATION OF PROJECT
  428.  
  429. We highly recommend written specifications for capture
  430. projects. Even with written specifications, problems can
  431. occur. Here's an example of a paragraph with a dropped
  432. header. On the left hand side we have the header and
  433. beside it the text. When you give instructions to the
  434. keystroker what you want them to first capture the phrase
  435. of the paragraph header followed by the text of the
  436. paragraph. The table below it looks exactly the same. It
  437. has left hand column information and table text. Unless
  438. you went through your entire set of source documents and
  439. marked them accordingly your capture vendor wouldn't
  440. necessarily know how to key these things.
  441.  
  442.  
  443. CONCLUSION
  444.  
  445. Data capture involves a series of tasks. You want to
  446. organize your raw data, separate, copy, name and develop
  447. some tracking procedures, and figure out tagging
  448. requirements for your text search engine. We suggest
  449. sending these to the capture vendor prior to starting the
  450. project. They can help identify problems or areas that
  451. are questionable.
  452.      You will want to tie a graphic reference in the text
  453. to a specific graphic. This is normally done by
  454. developing graphic naming conventions. Normally the
  455. graphics scanning and data capture are two separate data
  456. streams, sometimes performed in altogether different
  457. locations. The streams come together at the end and are
  458. tied together via the naming conventions. If you get your
  459. naming conventions right, both locations name graphics
  460. the same and it all ties together.
  461.      You'll want to do some sampling with the capture
  462. vendor. Look very carefully at the results of the
  463. samples. When you get the whole data set back the first
  464. thing you want to verify is that you have content, you
  465. have all the data you expected to get. When you get the
  466. bill back you want to validate that the bill corresponds
  467. to the amount of text you had captured.
  468.      Then you evaluate quality which means trying to get
  469. some hint of the relative quality of the captured text.
  470. It is very difficult, incidentally to establish that and
  471. it's also expensive. So you will probably go to sampling
  472. techniques to establish it.
  473.      Then you want to glue it together and take off with
  474. the steps Judy talked about. We are a development house
  475. that can help you with capture or entire CD-ROM projects.
  476. We also sell CD-ROM development software and have been
  477. involved in a lot of data capture projects. If you have
  478. an interest in this kind of work we'd love to talk to
  479. you.
  480.  
  481. Related graphics to this paper:
  482.  
  483. %g THO01.pcx;
  484. %g THO02.pcx;
  485. %g THO03.pcx;
  486. %g THO04.pcx;
  487. %g THO05.pcx;
  488. %g THO06.pcx;
  489. %g THO07.pcx;
  490. %g THO08.pcx;
  491. %g THO09.pcx;
  492. %g THO10.pcx;
  493. %g THO11.pcx;
  494. %g THO12.pcx;
  495. %g THO13.pcx;
  496.  
  497.  
  498.  
  499.  
  500.  DATA CONVERSION: MOVING FROM PAPER TO PLASTIC
  501.  
  502.                     Judith A. Zidar
  503.      National Agricultural Text Digitizing Program
  504.      National Agricultural Library, Beltsville MD
  505.  
  506.  
  507. The following is a summary of the data conversion process
  508. involved when moving information from paper to CD-ROM. It
  509. is assumed that such an effort proceeds according to
  510. established project management guidelines. That is, a
  511. project manager has been appointed and the project team
  512. assembled. A budget has been established, and a project
  513. plan with a time line has been developed. Even though no
  514. one actually sticks to the time table on their first
  515. CD-ROM project, such a tool helps to organize the various
  516. tasks and sets forth the expected flow of the work. Just
  517. be prepared to update the time line as the project moves
  518. along (or fails to move along, as will happen on
  519. occasion).
  520.      It is also assumed that indexing and retrieval
  521. software has been selected, or that it will be selected
  522. sometime during the project. Selection of such software
  523. is not covered here.
  524.  
  525.  
  526. DATA CONVERSION PROCESS (DATABASE CREATION)
  527.  
  528. The data conversion process as described here is based on
  529. the experience gained by the National Agricultural Text
  530. Digitizing Program (NATDP) at the National Agricultural
  531. Library. NATDP takes collections of reference materials
  532. on a single topic, such as Aquaculture or Food
  533. Irradiation, optically scans the material and performs
  534. text recognition on it, and then places the images and
  535. text on CD-ROM for distribution to the agricultural
  536. community. The eight steps given below would apply to
  537. most CD-ROM projects, although the tasks for each step
  538. may vary depending on the nature of each project.
  539.  
  540.  
  541. 1. DEFINE USER AND DATABASE REQUIREMENTS
  542.  
  543. Who are the users? (novice, experts; subject knowledge)
  544. Why and how are they using it? (casual, research; browse,
  545. word search)
  546. How often are they going to use it? (occasional use
  547. requires a more intuitive interface than daily use)
  548. Need full text? Images?
  549.  
  550. Developer's special requirements?
  551.      Preservation issues.
  552.      Legal requirements.
  553.      Time and cost limitations.
  554.  
  555. 2. COLLECT SOURCE DOCUMENTS
  556.  
  557.  Publications
  558.  Manuscripts
  559.  Machine-readable files
  560.  
  561.  
  562. 3. PREPARE SOURCE DOCUMENTS FOR PROCESSING (DATA PREP)
  563.  AND DESIGN DATABASE
  564.  
  565. NOTE: Data prep and database design are listed
  566. by most experts as two separate steps. In
  567. actual practice, however, we find ourselves
  568. doing them at the same time, as they go
  569. together like hand in glove.
  570.  
  571. (1) Review and organize source material;
  572. assign sequence 
  573. numbers.
  574.  
  575. (2) Define contents; records; fields.
  576.  
  577. (3) Mark up the source material, record by
  578. record.
  579.  
  580. (4) Prepare worksheets or other tracking
  581. sheets.
  582.  
  583. (5) Assign descriptors, other enhancements.
  584.  
  585. (6) Determine file and directory naming scheme
  586. (40-100
  587. files per directory).
  588.  
  589. (7) Determine other files needed for database,
  590. such as 
  591. thesaurus, hierarchy, or table of contents
  592. files. (May
  593. depend on retrieval software and on user
  594. needs.)
  595.  
  596.  
  597. 4. PERFORM DATA CAPTURE AND ENHANCEMENT
  598.  
  599.  NOTE: Data capture is the largest and most
  600. time consuming step in the entire process. It
  601. could be more economical to have a service
  602. bureau perform this step.
  603.  
  604. (1) Scan images, OCR text, convert
  605. machine-readable files.
  606.  
  607. (2a) Edit text as necessary.
  608. (2b) Add any enhancements, such as
  609. bibliographic data and descriptive
  610. information.
  611.  
  612. (3) Add field tags or other codes; or assure
  613. format consistency so a program can be written
  614. to do this.
  615.  
  616. (4) Backup files as they are processed, and/or
  617. archive to stable medium.
  618.  
  619. (5) Maintain a logbook to track database files
  620. through processing.
  621.  
  622.  
  623. 5. CREATE LABEL ARTWORK
  624.  
  625. (1) Get label artwork specifications from
  626. mastering facility.
  627.  
  628. (2) Design artwork. Most labels include the
  629. following:
  630.  
  631.      (a) Background design.
  632.      (b) Title of CD-ROM.
  633.      (c) Developer agency's name and logo.
  634.      (d) Standard CD-ROM logo; name of
  635.      mastering facility (if required by the
  636.      facility); and "Made in USA."
  637.      (e) Retrieval software used to access the
  638.      disc.
  639.      (f) Publication date (usually, month and
  640.      year mastered).
  641.      (g) Other descriptive information you may
  642.      want on your disc label.
  643.  
  644. (3) Create camera-ready copy.
  645.  
  646. (4) Create film positive, emulsion side up.
  647. (Mastering facility will do this for you for a
  648. small fee, if you cannot provide it.)
  649.  
  650.  
  651.  
  652. 6. BUILD AND INDEX DATABASE
  653.  
  654. NOTE: This step is best performed on a system
  655. with enough storage space to hold the entire
  656. database + software -- up to 650 MB on one
  657. partition.
  658.  
  659. (1) Prepare text files for indexing.
  660.  e.g.: Sort and/or move (both text & images)
  661.  Insert links and tags (if not done at data
  662. capture)
  663. Concatenate text files if required by software
  664. Create "indexing" files (.def; .hir; .tbl)
  665. Validate files
  666.  
  667. (2) Index textual material -- may index many
  668. times.
  669.  
  670. (3) Create links, hyperlinks.
  671.  
  672. (4) Add other database files (thesaurus, t/c,
  673. etc.) 
  674.  
  675. (5) Test and retest the database.
  676.  
  677. (6) Create and test installation program for
  678. retrieval software. (Vendor may supply.)
  679.  
  680. (7) Backup entire database w/software to
  681. stable medium.
  682.  
  683. (8) Create logical format for ISO 9660. Use
  684. CD-Publisher or similar system; or List
  685. directory and file structure for mastering
  686. facility.
  687.  
  688. (9) Write database w/software to 9-track tape
  689. or other portable medium (DAT, CD-R, WORM)
  690.  
  691.  
  692.  
  693. 7. PREPARE END-USER DOCUMENTATION
  694.  
  695. (1) Prepare User Manual -- software vendor
  696. often supplies.
  697.  
  698. (2) Prepare quick-start tutorial or guided
  699. tour -- software vendor may supply; otherwise,
  700. prepare inhouse.
  701.  
  702. (3) Have documentation reviewed by editorial
  703. committee, if required.
  704.  
  705. (4) Send to printer.
  706.  
  707.  
  708.  
  709. 8. MASTER CD-ROMS.
  710.  
  711. (1) Send tapes and artwork to mastering
  712. facility. (Government agencies can go through
  713. GPO or NTIS.)
  714.  
  715. (2) Request test disc.
  716.  
  717. (3) Review test disc.
  718.  
  719. (4) Authorize creation of CD-ROMs.
  720.  
  721.  
  722.